podatki <- read.table("/cloud/project/Poglavje 3/Naloga 2/Sprejemni izpiti.csv", header=TRUE, sep=";", dec=",")
head(podatki)
##   ID GRE TOEFL Univerza Motivacija Priporočila Dodiplomski
## 1  1 337   118        4        4.5         4.5        9.65
## 2  2 324   107        4        4.0         4.5        8.87
## 3  3 316   104        3        3.0         3.5        8.00
## 4  4 322   110        3        3.5         2.5        8.67
## 5  5 314   103        4        5.0         3.0        8.21
## 6  6 330   115        5        4.5         3.0        9.34
##   Raziskovanje Sprejetje
## 1            1         1
## 2            1         1
## 3            1         1
## 4            1         1
## 5            0         1
## 6            1         1

Opis spremenljivk:

podatki$SprejetjeFaktor <- factor(podatki$Sprejetje, 
                                  levels = c(0, 1), 
                                  labels = c("NE", "DA"))

podatki$RaziskovanjeFaktor <- factor(podatki$Raziskovanje, 
                                     levels = c(0, 1), 
                                     labels = c("NE", "DA"))
head(podatki)
##   ID GRE TOEFL Univerza Motivacija Priporočila Dodiplomski
## 1  1 337   118        4        4.5         4.5        9.65
## 2  2 324   107        4        4.0         4.5        8.87
## 3  3 316   104        3        3.0         3.5        8.00
## 4  4 322   110        3        3.5         2.5        8.67
## 5  5 314   103        4        5.0         3.0        8.21
## 6  6 330   115        5        4.5         3.0        9.34
##   Raziskovanje Sprejetje SprejetjeFaktor RaziskovanjeFaktor
## 1            1         1              DA                 DA
## 2            1         1              DA                 DA
## 3            1         1              DA                 DA
## 4            1         1              DA                 DA
## 5            0         1              DA                 NE
## 6            1         1              DA                 DA
summary(podatki[-1])
##       GRE            TOEFL          Univerza      Motivacija   
##  Min.   :290.0   Min.   : 92.0   Min.   :1.00   Min.   :1.000  
##  1st Qu.:308.0   1st Qu.:103.0   1st Qu.:3.00   1st Qu.:3.000  
##  Median :316.0   Median :107.0   Median :3.00   Median :3.500  
##  Mean   :316.2   Mean   :107.2   Mean   :3.42   Mean   :3.418  
##  3rd Qu.:324.0   3rd Qu.:112.0   3rd Qu.:4.00   3rd Qu.:4.000  
##  Max.   :340.0   Max.   :120.0   Max.   :5.00   Max.   :5.000  
##   Priporočila     Dodiplomski     Raziskovanje     Sprejetje    
##  Min.   :1.000   Min.   :6.800   Min.   :0.000   Min.   :0.000  
##  1st Qu.:3.000   1st Qu.:8.127   1st Qu.:0.000   1st Qu.:0.000  
##  Median :3.500   Median :8.560   Median :1.000   Median :1.000  
##  Mean   :3.484   Mean   :8.576   Mean   :0.546   Mean   :0.724  
##  3rd Qu.:4.000   3rd Qu.:9.040   3rd Qu.:1.000   3rd Qu.:1.000  
##  Max.   :5.000   Max.   :9.920   Max.   :1.000   Max.   :1.000  
##  SprejetjeFaktor RaziskovanjeFaktor
##  NE:138          NE:227            
##  DA:362          DA:273            
##                                    
##                                    
##                                    
## 
fit <- glm(SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija + Priporočila + Dodiplomski + RaziskovanjeFaktor,  
            family = binomial, 
            data = podatki)
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:DescTools':
## 
##     Recode
vif(fit)
##                GRE              TOEFL           Univerza 
##           1.330171           1.458553           1.111756 
##         Motivacija        Priporočila        Dodiplomski 
##           1.193841           1.201897           1.291568 
## RaziskovanjeFaktor 
##           1.139325
mean(vif(fit))
## [1] 1.24673
podatki$StdOstanki <- rstandard(fit)
podatki$CooksD <- cooks.distance(fit)

hist(podatki$StdOstanki,
     main = "Histogram standardiziranih ostankov",
     ylab = "Frekvenca",
     xlab = "Standardizirani ostanki")

head(podatki[order(podatki$StdOstanki), c("ID", "StdOstanki")], 3)
##      ID StdOstanki
## 115 115  -2.562086
## 399 399  -2.308785
## 19   19  -1.996294
head(podatki[order(-podatki$StdOstanki), c("ID", "StdOstanki")], 3)
##      ID StdOstanki
## 293 293   3.221921
## 477 477   2.220679
## 278 278   2.053021
head(podatki[order(-podatki$CooksD), c("ID", "CooksD")], 5)
##      ID     CooksD
## 293 293 0.26408066
## 278 278 0.07891793
## 126 126 0.06067084
## 409 409 0.05043987
## 91   91 0.04674420
podatki <- podatki[c(-278, -293), ]
fit <- glm(SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija + Priporočila + Dodiplomski + RaziskovanjeFaktor,  
            family = binomial, 
            data = podatki)

summary(fit)
## 
## Call:
## glm(formula = SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija + 
##     Priporočila + Dodiplomski + RaziskovanjeFaktor, family = binomial, 
##     data = podatki)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -2.52198  -0.00093   0.00173   0.06062   2.33374  
## 
## Coefficients:
##                       Estimate Std. Error z value Pr(>|z|)    
## (Intercept)          -80.82097   14.98243  -5.394 6.88e-08 ***
## GRE                    0.13987    0.04529   3.088 0.002012 ** 
## TOEFL                 -0.04550    0.09005  -0.505 0.613332    
## Univerza               5.12701    1.13454   4.519 6.21e-06 ***
## Motivacija             1.27501    0.47954   2.659 0.007842 ** 
## Priporočila            0.48134    0.39463   1.220 0.222561    
## Dodiplomski            2.56709    0.91458   2.807 0.005003 ** 
## RaziskovanjeFaktorDA   2.25587    0.63520   3.551 0.000383 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 587.841  on 497  degrees of freedom
## Residual deviance:  98.453  on 490  degrees of freedom
## AIC: 114.45
## 
## Number of Fisher Scoring iterations: 9